RR como una herramienta para el procesamiento y análisis de datos.R.R e interactuar con la plataforma de RStudio.R?Es un entorno y lenguaje de programación gratuito y de código abierto (freeware). Más que un software estadístico como SPSS o STATA, R es un marco para el análisis estadístico con una fuerte orientación a la ciencia de datos. Se crea bajo un nuevo paradigma de ciencia abierta en 1993 por Ross Ihaka y Robert Gentleman con el foco en 4 aspectos claves:
El registro de los análisis queda en formato de texto plano, por lo tanto es independiente de una plataforma para poder editarlo, y además permite un control eficiente de versiones (por ejemplo vía Git). Los análisis operan en base a paquetes o librerias (¡actualmente existen más de 3000 librerías disponibles!) y su análisis se orienta principalmente a objetos (lo veremos más adelante).
Fuente: https://i0.wp.com/r4stats.com/wp-content/uploads/2012/04/Fig_2d_ScholarlyImpact.png
Fuente: https://arcruz0.github.io/libroadp/
RVisualización de R para Windows (izquierda) y Mac (derecha)
RStudio?Es un entorno de desarrollo integrado para R (interfaz gráfica) que permite una navegación más “amigable” y dinámica dentro de la plataforma de R.Cuenta con una consola, editor de resaltado de sintaxis que admite la ejecución directa de código y herramientas para el trazado, el historial, la depuración y la gestión del espacio de trabajo para facilitar el reporte y reproducibilidad de los análisis. Esto favorece el desarrollo de procedimientos de ciencia abierta para la investigación.
RStudio1. Visitar la página de RStudio.com, descarga y sigue las instrucciones de instalación
RStudioR y RStudioEn el archivo de código simple Rscript hay caracteres especiales para trabajar y se guarda por defecto con extensión .R.
# : Comentarios que no se ejecutan como comandos
# + : Sigue el comando en la próxima linea
# ; : Para escribir más de una función en la misma líneaSe puede utilizar para calculadora (este es un simple uso para una plataforma multianálisis).
## [1] 5
## [1] -1
## [1] 6
## [1] 0.6666667
## [1] 8
Se pueden utilizar funciones predeterminadas en R.
## [1] 6.907755
## [1] 0.1053981
## [1] 2
## [1] 2
##
## log> log(exp(3))
## [1] 3
##
## log> log10(1e7) # = 7
## [1] 7
##
## log> x <- 10^-(1+2*1:9)
##
## log> cbind(x, log(1+x), log1p(x), exp(x)-1, expm1(x))
## x
## [1,] 1e-03 9.995003e-04 9.995003e-04 1.000500e-03 1.000500e-03
## [2,] 1e-05 9.999950e-06 9.999950e-06 1.000005e-05 1.000005e-05
## [3,] 1e-07 1.000000e-07 1.000000e-07 1.000000e-07 1.000000e-07
## [4,] 1e-09 1.000000e-09 1.000000e-09 1.000000e-09 1.000000e-09
## [5,] 1e-11 1.000000e-11 1.000000e-11 1.000000e-11 1.000000e-11
## [6,] 1e-13 9.992007e-14 1.000000e-13 9.992007e-14 1.000000e-13
## [7,] 1e-15 1.110223e-15 1.000000e-15 1.110223e-15 1.000000e-15
## [8,] 1e-17 0.000000e+00 1.000000e-17 0.000000e+00 1.000000e-17
## [9,] 1e-19 0.000000e+00 1.000000e-19 0.000000e+00 1.000000e-19
## function (x, base = exp(1))
## NULL
## [1] 2
Objeto unidimensional constituido por elementos del mismo tipo.
## [1] 1
## [1] 1 2 3 4
## [1] 1 2 3 4
## [1] 4 3 2 1
## [1] 1 2 3 4
## [1] 4 3 2 1
## [1] -1 0 1 2
## [1] -1 0 1 2
## [1] 2 4 6 8
## [1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
## [1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
## [1] 0.5 1.0 1.5 2.0
## [1] 0.5 1.0 1.5 2.0
## [1] 4 6 6 4
## [1] -1 0 1 2
## [1] 5 5 7 7
## Warning in c(1, 2, 3, 4) + c(4, 3, 2): longer object length is not a
## multiple of shorter object length
## [1] 5 5 5 8
## Warning in (1:4) * (1:6): longer object length is not a multiple of shorter
## object length
## [1] 1 4 9 16 5 12
## [1] 1 4 3 8
Objeto bidimensional constituido por filas y columnas de elementos del mismo tipo.
## [,1] [,2] [,3]
## [1,] 1 4 7
## [2,] 2 5 8
## [3,] 3 6 9
y <- matrix(1:8,2,4,byrow = F) #Genera una matriz con 2 filas y 4 columnas que se irá completando por columnas
y## [,1] [,2] [,3] [,4]
## [1,] 1 3 5 7
## [2,] 2 4 6 8
## [,1] [,2] [,3] [,4]
## [1,] 1 2 3 4
## [2,] 5 6 7 8
R es un programa orientado a objetos, los que son creados por funciones, que en su forma más general sería: Objeto <- función o de manera equivalente Objeto = función. Hay diferentes tipos de objetos: vectores, factores, matrices, marco/base de datos (entre otros) Veamoslo en el siguiente código:
## [1] 23 45 67 89
## [1] 1 1 0 1
Por temas de reproducibilidad, se recomienda establecer directorio de trabajo (ubicación en el pc), donde se buscan y guardan los archivos que se vayan utilizando y/o creando durante el análisis.
getwd() # Se obtiene el directorio de trabajo actual
setwd("ruta") # Establecer directorio de trabajo
#Windows
setwd("~\Dropbox\SOL201S_Datos_III\SOL201S_2019\Ayudantia\SOL201S_Datos_3\Ayudantia1") #
#Mac
setwd("~/Dropbox/SOL201S_Datos_III/SOL201S_2019/Ayudantia/SOL201S_Datos_3/Ayudantia1")Conjunto de funciones que tienen una relación entre ellas y que usualmente vienen acompañadas de ficheros de ayuda (documentación). Algunas librerías vienen preinstaladas, otras específicas hay que instalarlas de acuerdo a las necesidades del usuario.
library() #Puedo revisar los paquetes instalados
install.packages("libreria") #Para instalar
library("libreria") #Las librerías se instalan sólo una vez, pero deben ser cargadas si se quieren utilizar en la sesión de trabajo
install.packages("dplyr") #Para manipulación de datos
install.packages("car") #"Companion to Applied Regression" (Fox & Weisberg)Pueden encontrar información de las librerías oficiales de R disponibles según disciplina académica en el siguiente link.
Además, para evitar lo de instalar/cargar, hay una librería en R que se llama “pacman” (package manager) que cumple la función de cargar las librerías, o en su defecto, instalarlas y cargarlas.
install.packages("pacman") #Sólo la primera vez. Este es un paquete que nos permite administrar otros paquetes.
pacman::p_load(dplyr,
car) #Cada vez
#El camino más tradicional:
library(dplyr)
library(car)En R hay múltiples referencias, paquetes, herramientas y formas de hacer las cosas. Para no intimidarse con tal magnitud de información les dejamos algunos links que pueden ser de ayuda:
Fox, John y Sanford Weisberg (2019). An R Companion to Applied Regression. Third Edition. SAGE.
Son excelentes herramientas para iniciarse en R, te recomendamos revisarlos con calma y tener mucha paciencia y perseverancia. Es un poco difícil entender la lógica del software en un principio pero solo es cosa de práctica.
Boccardo & Ruiz (2018). Uso de RStudio para Estadística Univariada en Ciencias Sociales: Manual de apoyo docente para Estadística Descriptiva. Elaborado por sociólogos es una buena fuente para introducirse al mundo de R.
R para Ciencia de Datos: Libro base para el uso de R, aquí podrán ver que la plataforma de Rstudio no es solo una plataforma de análisis estadístico, sino que de procesamiento de datos y reporte.
AnalizaR Datos Políticos: Manual con herramientas y tips prácticos para analizar datos políticos.
RStudio Cheat Sheets: Otros recursos en inglés.
Para los que alguna vez fuimos nuevos en R y RStudio nos sirvió bastante ver las preguntas y respuestas de otras personas en todo el mundo. De hecho, casi todas nuestras preguntas ya fueron respondidas por otras personas (una de las ventajas del paradigma de la ciencia abierta) por lo que solo debemos buscar. Aunque, ojo, la mayoría de ellas están en inglés:
Puedes encontrar las carpetas con las ayudantías y bases de datos en el siguiente Link
La próxima ayudantía veremos: